Maße der zentralen Tendenz und Streuung
Humboldt-Universität zu Berlin
Mi. den 06.12.2023
Heute werden wir lernen…
summarise() von dplyr benutzt.by Gruppe erstelltDie erforderliche Lektüre für dieses Thema sind:
Kap. 3, Abschnitte 3.4-3.9 (Descriptive statistics, models, and distributions) in Winter (2019) (online verfügbar für Studierende/Beschäftigte der HU Berlin über das HU Grimm Zentrum.
Abschnitt 4.5 (Groups) in Kap. 4 (Data Transformation) in Wickham et al. (2023).
Session > Restart R, um mit einer neuen Umgebung zu beginnen
Cmd/Ctrl+Strg+0
groesse_geburtstag_ws2324.csv: ein leicht veränderter groesse_geburtstag-Datensatz von Winter Semester 2023/2024languageR_english.csv: komprimierte Version des english-Datensatzes aus dem languageR-Paketnrow(): liefert die Anzahl der Beobachtungen in einem Datensatz[1] 9
length(): die Anzahl der Beobachtungen in einem Vektor oder einer Variablen[1] 9
\[\begin{align} \mu &= \frac{Summe\;der\;Werte} {n} \label{eq-mean} \end{align}\]
[1] 173.7778
mean() function.[1] 173.7778
mean() auch auf eine Variable in einem Datenrahmen anwenden, indem wir den Operator $ verwenden (datenrahmen$variable).[1] 173.6667
sort() verwenden und zählen, welches der mittlere Wert ist:[1] 163 164 167 167 170 171 182 189 190
median() verwenden[1] 170
[1] 190
[1] 163
range() verwenden[1] 163 190
[1] 27
sd oder \(\sigma\))sd) = die Quadratwurzel (\(\sqrt{}\) oder sqrt() in R) der Summe der quadrierten Wertabweichungen vom Mittelwert (\((x - \mu)^2\)) geteilt durch die Anzahl der Beobachtungen minus 1 (\(n-1\))
\[\begin{align} \sigma & = \sqrt{\frac{(x_1-\mu)^2 + (x_2-\mu)^2 + ... + (x_N-\mu)^2}{N-1}} \label{eq-sd} \end{align}\]
sd() berechnen[1] 10.46157
\[\begin{align} \sigma_{heights} & = \sqrt{\frac{(height_1-\mu)^2 + (height_2-\mu)^2 + ... (heights_N-\mu)^2}{N-1}} \end{align}\]
dplyr aus dem tidyverse hat einige hilfreiche Funktionen, um zusammenfassende Statistiken zu erstellendf_eng-Datensatz verwenden, um diese dplyr-Verben kennenzulernendplyr::summarisesummarise() (dplyr) berechnet Zusammenfassungen von Daten
n() zum Beispiel liefert die Anzahl der Beobachtungen (nur wenn sie innerhalb von summarise() oder mutate() verwendet wird)# A tibble: 1 × 1
N
<int>
1 4568
rt_lexdec, in Millisekunden)# A tibble: 1 × 3
mean_lexdec sd_lexdec N
<dbl> <dbl> <int>
1 708. 115. 4568
Fehlende Werte
rt_naming hat einen fehlenden Wertmean() funktioniert nicht mit fehlenden Wertendrop_na() entfernen.by =.by = in summarise() berechnet unsere Berechnungen für Gruppen innerhalb einer kategorialen Variable# A tibble: 2 × 4
age_subject mean_lexdec sd_lexdec N
<chr> <dbl> <dbl> <int>
1 young 630. 69.1 2283
2 old 787. 96.2 2284
Verkettung (c())# A tibble: 4 × 5
age_subject word_category mean_lexdec sd_lexdec N
<chr> <chr> <dbl> <dbl> <int>
1 old N 790. 101. 1452
2 old V 780. 86.5 832
3 young N 633. 70.8 1451
4 young V 623. 65.7 832
| dataset | mean_x | mean_y |
|---|---|---|
| Dataset 1 | 9 | 7.5 |
| Dataset 2 | 9 | 7.5 |
| Dataset 3 | 9 | 7.5 |
| Dataset 4 | 9 | 7.5 |
| dataset | mean_x | mean_y | std_dev_x | std_dev_y | corr_x_y |
|---|---|---|---|---|---|
| away | 54.27 | 47.83 | 16.77 | 26.94 | -0.06 |
| bullseye | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| circle | 54.27 | 47.84 | 16.76 | 26.93 | -0.07 |
| dino | 54.26 | 47.83 | 16.77 | 26.94 | -0.06 |
| dots | 54.26 | 47.84 | 16.77 | 26.93 | -0.06 |
| h_lines | 54.26 | 47.83 | 16.77 | 26.94 | -0.06 |
| high_lines | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| slant_down | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| slant_up | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| star | 54.27 | 47.84 | 16.77 | 26.93 | -0.06 |
| v_lines | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| wide_lines | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| x_shape | 54.26 | 47.84 | 16.77 | 26.93 | -0.07 |
Abbildung 2: Plots of datasauRus dataset distributions
Heute haben wir gelernt…
summarise() von dplyr benutzt ✅.by Gruppe erstellt ✅Anhang 7: Deskriptive Statistik auf der Website des Kurses.
Erstellt mit R version 4.4.0 (2024-04-24) (Puppy Cup) und RStudioversion 2023.9.0.463 (Desert Sunflower).
R version 4.4.0 (2024-04-24)
Platform: aarch64-apple-darwin20
Running under: macOS Ventura 13.2.1
Matrix products: default
BLAS: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.0
locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
time zone: Europe/Berlin
tzcode source: internal
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] datasauRus_0.1.8 patchwork_1.2.0 janitor_2.2.0 here_1.0.1
[5] lubridate_1.9.3 forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4
[9] purrr_1.0.2 readr_2.1.5 tidyr_1.3.1 tibble_3.2.1
[13] ggplot2_3.5.1 tidyverse_2.0.0
loaded via a namespace (and not attached):
[1] utf8_1.2.4 generics_0.1.3 xml2_1.3.6 lattice_0.22-6
[5] stringi_1.8.3 hms_1.1.3 digest_0.6.35 magrittr_2.0.3
[9] evaluate_0.23 grid_4.4.0 timechange_0.3.0 fastmap_1.1.1
[13] Matrix_1.7-0 rprojroot_2.0.4 jsonlite_1.8.8 mgcv_1.9-1
[17] fansi_1.0.6 viridisLite_0.4.2 scales_1.3.0 cli_3.6.2
[21] rlang_1.1.3 crayon_1.5.2 splines_4.4.0 bit64_4.0.5
[25] munsell_0.5.1 withr_3.0.0 yaml_2.3.8 parallel_4.4.0
[29] tools_4.4.0 tzdb_0.4.0 colorspace_2.1-0 pacman_0.5.1
[33] kableExtra_1.4.0 vctrs_0.6.5 R6_2.5.1 lifecycle_1.0.4
[37] snakecase_0.11.1 bit_4.0.5 vroom_1.6.5 pkgconfig_2.0.3
[41] pillar_1.9.0 gtable_0.3.5 glue_1.7.0 systemfonts_1.0.6
[45] highr_0.10 xfun_0.43 tidyselect_1.2.1 rstudioapi_0.16.0
[49] knitr_1.46 farver_2.1.1 nlme_3.1-164 htmltools_0.5.8.1
[53] svglite_2.1.3 labeling_0.4.3 rmarkdown_2.26 compiler_4.4.0
Woche 8 - Deskriptive Statistik